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Abstract 

Overlapping clustering problem is an important learning issue in which clusters 
are not mutually exclusive and each object may belongs simultaneously to several 
clusters. This paper présents a kernel based method that produces overlapping clus- 
ters on a high feature space using mercer kernel techniques to improve separability of 
input patterns. The proposed method, called OKM-K( Overlapping /c-means based 
kernel method), extends OKM (Overlapping /c-means) method to produce overlap- 
ping schemes. Experiments are performed on overlapping dataset and empirical 
results obtained with OKM-K outperform results obtained with OKM. 

Résumé 



Le problème de la classification recouvrante constitue un axe important de 
l/-) l'apprentissage automatique. Dans cet axe, les clusters ne sont pas mutuellement 

exclusifs et chaque objet peut appartenir simultanément à plusieurs groupes appelés 
recouvrements. Cet article présente une méthode à noyau permettant de produire 
des clusters non disjoints dans un espace de redescription fortement dimensionnel en 
çvq utilisant les techniques de l'astuce de noyau pour améliorer la séparabilité du modèle 

de données initial. La méthode proposée, OKM-K (Overlapping fc-means based ker- 
nel method) étend la méthode OKM (Overlapping /c-means). Les expérimentations 
sont effectuées sur un ensemble de données recouvrantes et les résultats empiriques 
obtenus avec OKM-K sont meilleures que les résultats obtenus avec OKM. 



mots clés: Apprentissage et Classification, Data Mining, Méthodes à Noyau 



1 Introduction 

Cet article s'intéresse au domaine de la classification recouvrante qui consiste à assigner 
des objets dans des classes non disjointes appelées recouvrements (Cleuziou , 2007). En ef- 
fet, plusieurs problèmes réels nécessitent qu'un objet puisse appartenir à la fois à plusieurs 
partitions. Par exemple, en biologie, un gène peut participer à plusieurs processus ; en 
recherche d'information, un document peut aborder plusieurs thématiques ou appartenir 
à plusieurs genres différents ; en traitement du langage, un mot peut avoir plusieurs 
interprétations. 
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Plusieurs méthodes ont été proposées pour résoudre ce problème. Les premières 
méthodes étendent les schémas de classification floue où un objet appartient à plusieurs 
classes avec différents degrés d'appartenance (Deodhar and Ghosh,2006). En fixant un 
seuil minimal sur ces degrés, les objets sont affectés à une ou à plusieurs classes. Ces 
méthodes ne permettent pas de traiter tous les schémas de recouvrement possibles. Des 
méthodes plus récentes de classification recouvrante ont résolu ce problème en déterminant 
directement des recouvrements optimaux et non pas des partitions optimales. L'éventail 
de ces méthodes comprend à minima des généralisations des méthodes de réallocation 
dynamique telle que la méthode OKM proposée par Cleuziou (2008) , des adaptations 
des méthodes des mélanges de lois (Banerjee, 2005), (Heller and Ghahramani, 2007) et 
des méthodes fondées sur la théorie des graphes pour produire des schémas recouvrants 
(Fellows et al., 2009). 

Dans cet article, nous nous intéressons à la construction des classes recouvrantes ainsi 
qu'à la détermination des séparations non sphériques entre les recouvrements. Nous 
proposons une méthode qui combine les avantages de la méthode OKM pour la con- 
struction directe des recouvrements optimaux et les avantages de la méthode kernel k- 
means(Camastra and Verri, 2005) pour la détermination des classes ayant des formes non 
shériques. 

2 OKM: Overlapping fc-means 

La méthode OKM étend la méthode /c-moyennes pour chercher des recouvrements opti- 
maux plutôt que des partitions optimales. Etant donné un ensemble d'objets à classifier 
X = {xi}f =1 avec Xi G ï? d et N le nombre d'objets, il s'agit de déterminer les k recouvre- 
ments de telle sorte que la fonction objective suivante soit optimisée : 



La notation im(xi) désigne l'image de définie par la combinaison des centres des clusters 
auxquels Xi appartient : 



où Ai est l'ensemble des affectations aux différents clusters de l'objet x^, c'est-à-dire les 
clusters auquels x^ appartient et m c correspond au centre du cluster c. 

Le critère J de la fonction objective généralise le critère des moindres carrés utilisés 
dans la méthode k-moyennes. Pour minimiser ce critère, deux étapes principales sont 
exécutées itérativement tant que le critère J n'est pas minimisé. La première étape con- 
siste à calculer les centres des clusters en utilisant la fonction PROTOTYPE (Cleuziou, 
2008). La deuxième étape consiste à affecter chaque objet à une ou à plusieurs classes selon 
la fonction d'affectation ASSIGN . La convergence de la méthode est caractérisée par 






(2) 
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plusieurs critères à savoir le nombre d'itérations maximales et le seuil minimal d'amélioration 
de la fonction objective entre deux itérations. 

La méthode OKM ne permet pas de déterminer les classes de formes concentriques et 
les classes de formes non sphériques. Pour résoudre ce problème, nous proposons d'étendre 
OKM en utilisant les méthodes à noyau. 

3 OKM-K: Overlapping /c-means based kernel method 

Le critère d'erreur de cette méthode, tel que défini dans eq.(3), est optimisé dans un espace 
fortement dimensionnel pour améliorer la recherche des séparations entre les clusters. 



J(tt) = H(xi) ~ imMxi)) f, (3) 

avec <f>(xi) la représentation de l'objet dans le nouvel espace. L'image im(4>(xi)) est 
aussi définie dans l'espace de redescription par: 

k 

Pic-mt 

imMxi)) = ^ , (4) 

c=l 

avec Pi C G {0, 1} une variable binaire indiquant l'appartenance de l'objet % au cluster c, 
et mf le prototype du cluster c dans l'espace de redescription. Le prototype d'un cluster 
est défini par le centre de gravité des objets qui appartiennent à ce cluster pondérés par 
le nombre de clusters auquels chaque objet appartient comme illustré dans eq.(5): 

N 



avec W c , la somme des poids des objets qui appartiennent au cluster c défini par W c = 

N 



^^Pj C .Wj. La notation Wj indique le poids unitaire assigné à l'object j défini par Wj = 

k 

l/(^^Pj C ) 2 . A partir de cette définition des prototypes des clusters, le critère d'erreur 



c=\ 
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peut être calculé comme suit: 



k , N 



Xi€X c=l 3=1 

k N 

= - — ^^P ic .—-.Pj C .w j .<f>(x i ).<f>(x j ) + 

Xi£X 1 c=l 3=1 c 

^ k N k N 

E E E E ^•^•^■^•^•^■ w r w 9^( I j)^( ï s)}. ( 6 ) 

c=l 3=1 t=l g=l c * 

avec Lj = Pj C . En remplaçant chaque produit scalaire dans l'espace de redescription 

c=l 

par la fonction de noyau, le critère J peut être déterminé sans réellement définir les 
représentations 4>(xi): 

2 k N l 

J(7r) = ^{A„~ , EE^ U' ./ , ,,T ( .A; J • 

i.ex * c=i 3=1 c 

k N k N . . 

T^EEEE -P^.^.^}, (7) 

v * ; c=l 3=1 t=l g=l c ' 

avec i^jj est la fonction de noyau représenant le produit scalaire entre <j){xj) et <p(xj). 
Pour optimiser le critère d'erreur, la méthode OKM-K affecte à chaque itération les 
représentations des objets <j)(xj) à un ou plusieurs clusters puis elle calcule de nouveau le 
critère J de la fonction objective. Si ce critère s'améliore d'une itération à une autre, les 
objets sont réaffectés aux clusters les plus proches jusqu'à l'optimisation de ce critère. Les 
conditions d'arrêt sont le nombre maximal d'itération et l'amélioration minimale dans la 
fonction objective d'une itération à une autre. 

4 Expérimentations 

Nous avons comparé l'efficacité de la méthode proposée OKM-K par rapport à la méthode 
OKM sur la la base de données EachMovie [j] qui contient des évaluations en lignes des 
internautes pour certains films. Si chaque genre de film est considéré comme une classe 
contenant plusieurs films, alors cette base de données contient naturellement des classes 
recouvrantes. Un film peut appartenir à plusieurs genres. A partir de cet ensemble 
de données, nous avons construit un sous ensemble de jeu de données contenant 75 films 



1 http : / / www. grouplens . org /node/ 76 . 
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Figure 1: Représentation 2D d'un sous ensemble de la base Eachmovie contenant 3 genres 
de films sur les deux premiers axes en utilisant la méthode PCA: (a) données dans l'espace 
d'origine, (b) données dans l'espace de redescription. 

répatis sur trois classes recouvrantes. La classe "Action" avec 21 films, la classe "Comédie" 
avec 26 films, la classe "Crime" avec 17 films et 11 films appartenant simultanément à la 
classe "Action" et "Crime". Le processus de classification dans ce sous ensemble consiste 
à déterminer le genre du film en se basant sur l'âge, le sexe et la note d'évaluation 
des internautes. La figure l.a montre la distribution des 3 genres de film sur les deux 
premiers axes en utilisant la méthode PCA. Les objets représentés avec "+" sont des films 
recouvrants qui appartiennent au genre "Action" et au genre "Crime". En projetant ces 
données dans un espace infiniment dimensionnel en utilisant un noyau RBF de paramètre 
a = 2, nous remarquons une amélioration de la représentation des films recouvrants dans 

Table 1: Comparaison entre la méthode OKM et la méthode OKM-K sur le dataset 
Eachmovie. 



Méthode 


Précision 


Recall 


F-measure 


OKM avec distance euclidienne 


0.557 


0.788 


0.616 


OKM avec I-Divergence 


0.582 


0.687 


0.630 


OKM-K avec noyau polynomial (d=0.25) 


0.700 


0.615 


0.665 


OKM-K avec noyau RBF (a = 2) 


0.628 


0.851 


0.721 
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la figure l.b puisque ces films recouvrants se trouvent à l'extrémité des films de type 
"Action" et les films de type "Crime". 

Nous avons effectué dix exécutions de chaque méthode avec les mêmes initialisations 
des clusters dans chaque exécution. Le tableau 1. montre les différents résultats obtenus. 
Nous remarquons que la méthode OKM-K utilisée avec un noyau RBF donne la valeur " F- 
measure" la plus élevée. L'utilisation du noyau RBF a permis d'améliorer simultanément 
la mesure de précision et la mesure de rappel par rapport à la distance euclidienne. 

5 Conclusion 

Nous avons proposé dans cet article la méthode OKM-K qui permet explicitement de 
représenter les données dans un espace de dimensionnalité supérieur à l'espace d'origine 
par l'utilisation de l'astuce de noyau. La recherche des recouvrements optimaux est ef- 
fectuée dans cet espace dimensionnel à travers la maximisation itérative d'une fonction 
objective. L'avantage de cette méthode consiste en sa capacité à identifier les clusters 
de formes non sphériques. Les résultats empiriques obtenus prouvent la performance de 
classification de la méthode OKM-K par rapport à la méthode OKM. 

Comme travaux futurs, nous prévoyons de profiter de l'utilisation des méthodes à noy- 
aux dans OKM-K pour appliquer la classification recouvrante sur des données structurées 
non vectorielles telles que les arbres et les histogrammes. 
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